AI 的下半场

本文翻译自《The Second Half - Shunyu Yao》

要点总结：我们正处于人工智能的中场休息阶段。

几十年来，人工智能主要致力于开发新的训练方法和模型。而且这取得了成效：从在国际象棋和围棋比赛中击败世界冠军，在学术能力评估测试（SAT）和律师资格考试中超越大多数人类，到获得国际数学奥林匹克竞赛（IMO）和国际信息学奥林匹克竞赛（IOI）金牌。在这些历史里程碑——深蓝（DeepBlue）、阿尔法围棋（AlphaGo）、GPT-4以及o系列模型背后，是人工智能方法的根本性创新：搜索、深度强化学习、规模扩展以及推理。随着时间推移，情况越来越好。

那么，现在突然有什么不同了呢？

用三个字概括：强化学习（RL）终于起作用了。更准确地说：强化学习终于实现了泛化。在经历了几次重大挫折和一系列里程碑事件后，我们找到了一个可行的方案，能够利用语言和推理来解决广泛的强化学习任务。即使在一年前，如果你告诉大多数人工智能研究人员，一个单一的方案能够处理软件工程、创意写作、国际数学奥林匹克竞赛水平的数学问题、鼠标和键盘操作以及长篇问答——他们会嘲笑你在幻想。这些任务中的每一项都极其困难，许多研究人员整个博士生涯都只专注于其中一个狭窄的领域。

然而，这一切还是发生了。

那么接下来会发生什么呢？从现在开始，人工智能的下半场将把重点从解决问题转移到定义问题上。在这个新时代，评估变得比训练更加重要。我们不再仅仅问 “我们能否训练一个模型来解决X问题？”，而是问 “我们应该训练人工智能做什么，以及我们如何衡量真正的进展？” 为了在这个下半场取得成功，我们需要及时转变思维方式和技能组合，或许更接近产品经理的思维和技能。

上半场

为了理解人工智能的上半场，看看那些取得成功的成果。你认为到目前为止最具影响力的人工智能论文有哪些呢？

我在斯坦福大学的224N课程中尝试了这个测试，答案并不令人意外：Transformer、AlexNet、GPT-3等等。这些论文的共同点是什么呢？它们都提出了一些训练更好模型的根本性突破。而且，它们通过在一些基准测试中展示出显著的改进，成功发表了论文。

不过，这里有一个潜在的共性：这些 “成功之作” 都是训练方法或模型，而不是基准测试或任务。即使可以说所有基准测试中最具影响力的ImageNet，其引用量也不到AlexNet的三分之一。在其他任何地方，方法和基准测试之间的对比更加悬殊——例如，Transformer的主要基准测试是WMT’14，其研讨会报告的引用量约为1300次，而Transformer的引用量超过16万次。

first_half

这说明了上半场的游戏规则：专注于构建新的模型和方法，而评估和基准测试是次要的（尽管对于论文发表体系来说是必要的）。

为什么会这样呢？一个重要原因是，在人工智能的上半场，方法比任务更难且更令人兴奋。从零开始创建一种新的算法或模型架构——想想像反向传播算法、卷积网络（AlexNet）或者GPT-3中使用的Transformer这样的突破——需要非凡的洞察力和工程能力。相比之下，为人工智能定义任务往往感觉更加直接：我们只是把人类已经在做的任务（比如翻译、图像识别或国际象棋）转化为基准测试。不需要太多的洞察力，甚至工程能力。

方法也往往比单个任务更通用且应用广泛，这使得它们特别有价值。例如，Transformer架构最终推动了计算机视觉（CV）、自然语言处理（NLP）、强化学习（RL）以及许多其他领域的进展——远远超出了它首次证明自身的单个数据集（WMT’14翻译数据集）。一个优秀的新方法可以在许多不同的基准测试中取得进步，因为它简单且通用，因此其影响力往往会超越单个任务。

这个游戏几十年来一直行之有效，激发了改变世界的想法和突破，这些通过在各个领域不断提高的基准测试性能得以体现。那么，这个游戏为什么会改变呢？因为这些想法和突破的积累，在创建一个解决任务的有效方案方面产生了质的变化。

方案

这个方案是什么呢？毫不奇怪，它的组成部分包括大规模的语言预训练、规模（数据和计算能力方面）以及推理和行动的理念。这些可能听起来像是你在旧金山每天都能听到的流行词汇，但为什么称它们为一个方案呢？

我们可以通过强化学习（RL）的视角来理解这一点，强化学习通常被认为是人工智能的 “终极目标”——毕竟，从理论上讲，强化学习保证能在游戏中获胜，而且从经验上看，很难想象没有强化学习的任何超人类系统（比如阿尔法围棋）。

在强化学习中，有三个关键组成部分：算法、环境和先验知识。在很长一段时间里，强化学习研究人员主要关注算法（例如，策略梯度算法（REINFORCE）、深度Q网络（DQN）、时间差分学习（TD-learning）、演员-评论家算法（actor-critic）、近端策略优化算法（PPO）、信任区域策略优化算法（TRPO）……）——这是智能体如何学习的核心知识，而将环境和先验知识视为固定的或次要的。例如，萨顿（Sutton）和巴托（Barto）的经典教科书几乎全是关于算法的内容，几乎没有关于环境或先验知识的内容。

first_half

然而，在深度强化学习时代，从经验上看，环境非常重要这一点变得很明显：一种算法的性能通常高度依赖于它所开发和测试的环境。如果你忽略环境，就有可能构建出一个 “最优” 算法，但它只在简单的场景中表现出色。那么，为什么我们不先弄清楚我们真正想要解决的环境，然后再找到最适合它的算法呢？

这正是OpenAI最初的计划。它创建了 gym，一个用于各种游戏的标准强化学习环境，然后是 Bits世界和Universe项目，试图将互联网或计算机变成一个游戏。这是个不错的计划，不是吗？一旦我们把所有数字世界变成一个环境，用智能的强化学习算法解决它，我们就有了数字通用人工智能（AGI）。

这是个不错的计划，但并不完全可行。OpenAI在这条道路上取得了巨大进展，使用强化学习解决了《刀塔》（Dota）、机器人手操作等问题。但它从未接近解决计算机使用或网页导航问题，而且在一个领域工作的强化学习智能体无法迁移到另一个领域。似乎缺少了一些东西。

直到GPT-2或GPT-3出现后，才发现缺失的部分是先验知识。你需要强大的语言预训练，将一般的常识和语言知识提炼到模型中，然后这些模型可以通过微调变成网页智能体（WebGPT）或聊天智能体（ChatGPT）（并改变世界）。事实证明，强化学习中最重要的部分可能甚至不是强化学习算法或环境，而是先验知识，而获取先验知识的方式可能与强化学习完全无关。

语言预训练为聊天创建了良好的先验知识，但对于控制计算机或玩视频游戏来说，效果并非同样好。为什么呢？这些领域与互联网文本的分布相差更远，天真地在这些领域进行监督微调（SFT）/ 强化学习（RL）时，泛化能力很差。我在2019年就注意到了这个问题，当时GPT-2刚刚问世，我在它的基础上进行监督微调 / 强化学习来解决基于文本的游戏—— CALM 是世界上第一个通过预训练语言模型构建的智能体。但这个智能体需要数百万次强化学习步骤才能在一个游戏中取得进展，而且它无法迁移到新游戏中。虽然这正是强化学习的特点，对强化学习研究人员来说并不奇怪，但我觉得很奇怪，因为我们人类可以轻松地玩一个新游戏，并且在零样本的情况下表现得明显更好。然后我迎来了人生中的第一个顿悟时刻——我们能够泛化，是因为我们可以选择做的不仅仅是 “去2号柜子” 或 “用1号钥匙打开3号箱子” 或 “用剑杀死地牢里的怪物”，我们还可以选择思考一些事情，比如 “地牢很危险，我需要一件武器来与之战斗。没有可见的武器，所以也许我需要在锁着的盒子或箱子里找到一件。3号箱子在2号柜子里，让我先去那里打开它”。

reasoning

思考，或者说推理，是一种奇怪的行动——它不会直接影响外部世界，但推理的空间是开放的，并且在组合上是无限的——你可以思考一个单词、一个句子、一整段话，或者10000个随机的英语单词，但你周围的世界不会立即改变。在经典的强化学习理论中，这是一笔糟糕的交易，会使决策变得不可能。想象一下，你需要从两个盒子中选择一个，其中只有一个盒子里有100万美元，另一个盒子是空的。你预期能得到50万美元。现在想象我又添加了无数个空盒子。你预期什么都得不到。但是通过将推理添加到任何强化学习环境的行动空间中，我们利用语言预训练的先验知识进行泛化，并且我们能够为不同的决策在测试时灵活地进行计算。这真的是一件非常神奇的事情，我很抱歉在这里不能完全解释清楚，我可能需要再写一篇博客专门讨论它。欢迎阅读 ReAct 了解智能体推理的原始故事以及我当时的感受。目前，我直观的解释是：即使你添加了无数个空盒子，你在一生中玩过的各种游戏中都见过它们，选择这些盒子能让你为在任何给定的游戏中更好地选择装有钱的盒子做好准备。我抽象的解释是：语言通过智能体中的推理实现泛化。

一旦我们有了合适的强化学习先验知识（语言预训练）和强化学习环境（将语言推理作为行动添加进来），结果发现强化学习算法可能是最微不足道的部分。因此，我们有了o系列模型、R1模型、深度研究、使用计算机的智能体等等，未来还会有更多。这是多么具有讽刺意味的转折啊！长期以来，强化学习研究人员对算法的关注远远超过对环境的关注，而且没有人关注先验知识——所有的强化学习实验基本上都是从零开始的。但我们经过几十年的弯路才意识到，也许我们的优先级应该完全颠倒过来。

但就像史蒂夫·乔布斯（Steve Jobs）说的：你无法从向前看的角度连接这些点；你只能从向后看的角度连接它们。

下半场

这个方案正在彻底改变游戏规则。回顾一下上半场的游戏规则：

我们开发新颖的训练方法或模型，以在基准测试中取得更好的成绩。
我们创建更难的基准测试，然后继续这个循环。

这个游戏正在被打破，原因如下：

这个方案基本上已经将基准测试成绩提升标准化并产业化了，而且不需要太多新的想法。随着这个方案的扩展和良好的泛化能力，你针对特定任务的新颖方法可能只能将其性能提高5%，而接下来的o系列模型可能会在没有明确针对该任务的情况下将其提高30%。
即使我们创建了更难的基准测试，很快（而且越来越快）它们就会被这个方案解决。我的同事杰森·魏（Jason Wei）制作了一个漂亮的图表来很好地展示这个趋势：

progress

那么下半场还能玩什么呢？如果不再需要新颖的方法，而且更难的基准测试很快就会被解决，我们该怎么办呢？

我认为 我们应该从根本上重新思考评估方式。这意味着不仅仅是创建新的、更难的基准测试，而是要从根本上质疑现有的评估设置并创建新的评估设置，这样我们就不得不发明超越现有可行方案的新方法。这很难，因为人类有惯性思维，很少质疑基本假设——你只是理所当然地接受它们，而没有意识到它们只是假设，而不是定律。

为了解释惯性思维，假设你发明了基于人类考试的历史上最成功的评估方法之一。在2021年，这是一个极其大胆的想法，但3年后它就饱和了。你会怎么做呢？很可能会创建一个难很多的考试。或者假设你解决了简单的编码任务。你会怎么做呢？很可能会找到更难的编码任务来解决，直到达到国际信息学奥林匹克竞赛（IOI）金牌水平。

惯性思维是很自然的，但问题在于此。人工智能已经在国际象棋和围棋比赛中击败了世界冠军，在学术能力评估测试（SAT）和律师资格考试中超越了大多数人类，并且在国际信息学奥林匹克竞赛（IOI）和国际数学奥林匹克竞赛（IMO）中达到了金牌水平。但世界并没有太大的改变，至少从经济和国内生产总值（GDP）的角度来看是这样。

我把这个称为 效用问题，并认为它是人工智能最重要的问题。

也许我们很快就能解决效用问题，也许不能。无论如何，这个问题的根本原因可能出奇地简单：我们的评估设置在许多基本方面与现实世界的设置不同。举两个例子：

评估 “应该” 自动运行。所以通常情况下，一个智能体收到一个任务输入，自主地执行任务，然后获得一个任务奖励。但在现实中，一个智能体在整个任务过程中必须与人类互动——你不会只是给客服发送一条超级长的消息，等上10分钟，然后期望得到一个详细的回复来解决所有问题。通过质疑这种设置，新的基准测试被发明出来，要么在循环中引入真实的人类（例如聊天机器人竞技场（Chatbot Arena）），要么进行用户模拟（例如 tau-bench）。
评估 “应该” 独立同分布地运行。如果你有一个包含500个任务的测试集，你会独立地运行每个任务，对任务指标进行平均，然后得到一个总体指标。但在现实中，你是按顺序而不是并行地解决任务。一个谷歌的软件工程师（SWE）在对代码库越来越熟悉的过程中，解决谷歌3（google3）问题的能力会越来越好，但一个软件工程师智能体在解决同一个代码库中的许多问题时却不会获得这样的熟悉度。我们显然需要长期记忆方法（而且已经有了相关研究还有这些），但学术界没有合适的基准测试来证明这种需求的合理性，甚至没有足够的勇气去质疑作为机器学习基础的独立同分布假设。

这些假设 “一直” 都是这样的，在人工智能的上半场，在这些假设下开发基准测试是没问题的，因为 当智能水平较低时，提高智能通常会提高效用。但现在，在这些假设下，通用方案是可以保证有效的。所以下半场新游戏的玩法是：

我们开发针对现实世界效用的新颖评估设置或任务。
我们用现有的方案或通过添加新颖的组件来扩展方案来解决这些问题。然后继续这个循环。

这个游戏很难，因为它不熟悉。但它也很令人兴奋。上半场的参与者解决的是视频游戏和考试问题，而下半场的参与者有机会通过利用智能构建有用的产品来创建价值数十亿美元甚至数万亿美元的公司。上半场充满了渐进式的方法和模型，而下半场在某种程度上对它们进行了筛选。通用方案会轻易地碾压你的渐进式方法，除非你创建打破该方案的新假设。然后你就能够进行真正改变游戏规则的研究了。

欢迎来到下半场！

来自知乎蛙哥的评论

看完最近OpenAI姚顺雨的《The Second Half》和 DeepMind 的《The Era of Experience》，就一个感觉，大模型的训练范式真要换代了

姚顺雨那篇文章说得很清楚，RL现在真的能用了，而且能泛化了。业界终于找到一个统一的方法，可以让大模型去写代码、玩游戏、解奥数题、甚至操控键鼠。以前这些任务，一个PhD能搞定一个就算毕业论文爆了，现在一个RL+语言模型的“配方”就能全搞定。

而DeepMind提出的是：“人类数据已经不够用了，AI需要靠自己体验成长。”这就是所谓的 “体验时代（Era of Experience）”。

以前靠人类数据（也就是我们发的网页、写的程序、记录的对话）训大模型，现在这些数据快被用光了，而且光模仿人类，永远无法超越人类。AlphaProof这种能自己生成证明的系统，才是真正的开路先锋。

两个文章其实有一个共识：AI的进化，开始从“训练怎么学”转向“让它自己去做”。

一句话总结姚顺雨的观点：“方法已经成熟不再重要，问题定义才是王道。”以前花力气造更强的模型，现在你得去想——模型应该做什么？怎么判断它有没有做到？这就很像产品经理干的活。确实，在模型即产品的角度看，模型这个产品能力怎么定义，就是通过模型的评测来刻画。过去是靠评测集，未来与现实世界打通后，如何评测呢？

DeepMind强调的是：“数据的源头要换，AI不能再吃我们喂的饭，而是要自己下厨。”从人类提供的问题转向环境提供的反馈，从一问一答的短对话走向像人一样的长期“体验流（streams）”。

我理解下来的未来技术路线：

以RL为核心的通用智能训练方式，不仅是RLHF，而是融合了思考（reasoning）动作。
从静态数据跳到动态环境，模型需要适应流式场景、长期交互，而不是单次推理。
评估要彻底革命，不再是刷榜，而是看模型是否在现实世界中真能干活。

说到底，大模型的下半场，比的是“真实用”。谁能定义出有价值的问题场景，谁能找到环境中可感知的奖励信号，谁就能带着模型去解锁真实世界的“新副本”。

我很认同姚顺雨的总结，我用一个比喻：现在的智能就像开了挂的游戏角色，但你得给它新的任务和副本，不然它只能在原地刷怪。

Round 2：真正的“AI对现实”

LLMs

Publish on 2025-04-25，Update on 2025-04-26

AI 的下半场

上半场

方案

下半场

评论

GitHub Commits 标准提交规范